BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers Posted on 2023-08-16 Edited on 2024-08-09 In BEV Valine: URL paper: https://arxiv.org/pdf/2203.17270.pdf chinese paper: https://drive.google.com/file/d/1dKnD6gUHhBXZ8gT733cIU_A7dHEEzNTP/view?pli=1 code: https://github.com/fundamentalvision/BEVFormer TL;DR 传统 BEV 算法中 View Transform 都是通过 LSS 实现 Image View 到 BEV View 的转变,这种视角转换方法依赖于图像视角的深度估计(显式或隐式)。 本文提出一种新的通过时空注意力机制实现的 View Transform 方法,在 Neuscenes 数据集上取得了不错的 3D 目标检测成绩(略差于 BEVDet4D)。 Algorithm